{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "initial_id",
   "metadata": {
    "collapsed": true,
    "ExecuteTime": {
     "end_time": "2024-06-21T08:56:52.079354Z",
     "start_time": "2024-06-21T08:56:51.645355Z"
    }
   },
   "outputs": [],
   "source": [
    "import re\n",
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "combined_df_tongyi=pd.read_csv('toyi_shanghai_java_annual_salary.csv')\n",
    "#去掉nan值\n",
    "combined_df_tongyi.fillna(\"无\", inplace=True)\n"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-21T09:05:03.839423100Z",
     "start_time": "2024-06-21T09:05:03.761422200Z"
    }
   },
   "id": "6c8d1863961285a9",
   "execution_count": 23
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "def str_split(job_str):\n",
    "    job_str = job_str.replace(\" \", \"\")\n",
    "    # 定义一个正则表达式，其中'|'表示或，用于匹配多个分隔符\n",
    "    split_pattern = re.compile(r',|/|，|、|\\n|-')  # 这里也包括了中文的逗号和顿号，根据实际需要可调整\n",
    "    # 使用re.split进行分割\n",
    "    keywords = split_pattern.split(job_str)\n",
    "    \n",
    "    # 去除空字符串\n",
    "    keywords = [keyword for keyword in keywords if keyword]\n",
    "    return keywords"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-21T09:05:03.959428100Z",
     "start_time": "2024-06-21T09:05:03.920422800Z"
    }
   },
   "id": "cf0f4c50942d71fb",
   "execution_count": 24
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id  company_id company_name                  job_title hr_name  \\\n0          1           1         慧安金科                    后端开发工程师     张女士   \n1          2           2         中汇云链                       Java     黄翔煊   \n2          3           3           熵央                Java高级开发工程师     严先生   \n3          4           4      某知名物流公司                     JAVA开发     李先生   \n4          5           5           同威                Java高级开发工程师     傅荣斌   \n...      ...         ...          ...                        ...     ...   \n3459    3481        3064         易商数智                上海Java开发工程师      孙晶   \n3460    3482        2867           海魄             java开发工程师(中高级)     刘女士   \n3461    3483        3065          慷泰桐              Java高级工程师/架构师      王莹   \n3462    3484        3066          爱达克  CodeBeamer二次开发工程师(J10627)     李诗雯   \n3463    3485        2926    某500强上市公司                java后端开发工程师     盖女士   \n\n      job_salary  annual_salary  \\\n0     30-40K·15薪          525.0   \n1          5-10K           90.0   \n2         17-28K          270.0   \n3         15-25K          240.0   \n4         12-20K          192.0   \n...          ...            ...   \n3459      10-13K          138.0   \n3460      15-20K          210.0   \n3461      15-20K          210.0   \n3462  15-20K·14薪          245.0   \n3463  35-65K·15薪          750.0   \n\n                                        job_description company_brief_address  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...               上海虹口区江湾   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...              上海虹口区大柏树   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...             上海虹口区四川北路   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...                    上海   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...             上海虹口区四川北路   \n...                                                 ...                   ...   \n3459  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...               上海黄浦区外滩   \n3460  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...              上海黄浦区城隍庙   \n3461  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...               上海宝山区大华   \n3462  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...               上海黄浦区外滩   \n3463  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...                    上海   \n\n      deleted     资历  学历  tags  \\\n0           0  5-10年  本科  java   \n1           0   1-3年  本科  java   \n2           0   3-5年  大专  java   \n3           0   3-5年  本科  java   \n4           0  5-10年  本科  java   \n...       ...    ...  ..   ...   \n3459        0  5-10年  本科  java   \n3460        0  5-10年  大专  java   \n3461        0  5-10年  大专  java   \n3462        0   3-5年  本科  java   \n3463        0  5-10年  本科  java   \n\n                                                   技术要求  \\\n0     Java, Spring, MySQL, 分布式中间件 (如Dubbo, Sharding-...   \n1                                 初级软件工程师，企业级应用开发，MySQL   \n2                                                     无   \n3     Java, JVM, MySQL, 调优, SpringCloud, Nacos, Dubb...   \n4     Java、Spring、Spring Boot、Spring Cloud、J2EE、WebA...   \n...                                                 ...   \n3459  - Java编程\\n- Spring, MyBatis, Spring Boot\\n- Sp...   \n3460  Java, SpringBoot, SpringCloud, Nacos, MyBatis,...   \n3461  JavaEE，微服务架构，设计模式，开源框架（如SpringMVC, SpringCloud...   \n3462                                                  无   \n3463                                                  无   \n\n                       工作领域                  角色定位  \\\n0                海外信贷业务系统开发             系统架构师/开发者   \n1                      软件开发             系统开发者/工程师   \n2                         无                     无   \n3                软件开发，微服务架构       高级Java开发者/系统架构师   \n4     企业级应用架构、微服务架构、分布式系统开发           高级架构师/首席架构师   \n...                     ...                   ...   \n3459         Java后端开发，微服务架构      高级Java开发工程师或技术专家   \n3460   企业内部系统开发，尤其是后端与微服务架构  全栈开发工程师，负责前后端服务开发与测试   \n3461         WEB应用开发，系统架构优化         技术架构师/高级开发工程师   \n3462                      无                     无   \n3463                      无                     无   \n\n                                         工作经验  \n0                   5年以上Java开发经验，熟悉微服务架构和性能调优  \n1                                   1. 系统开发经验  \n2                                           无  \n3              5年以上相关开发经验，供应链开发经验优先，公有云部署经验优先  \n4                  大型J2EE项目架构设计经验，大数据产品研发经验优先  \n...                                       ...  \n3459                            3年以上项目开发及维护经验  \n3460  4-8年Java Web开发经验，ERP开发经验优先，有分布式和工作流开发背景  \n3461          5年以上，3年以上Web应用开发经验，有微服务架构实践经验优先  \n3462                                        无  \n3463                                        无  \n\n[3464 rows x 17 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_id</th>\n      <th>company_name</th>\n      <th>job_title</th>\n      <th>hr_name</th>\n      <th>job_salary</th>\n      <th>annual_salary</th>\n      <th>job_description</th>\n      <th>company_brief_address</th>\n      <th>deleted</th>\n      <th>资历</th>\n      <th>学历</th>\n      <th>tags</th>\n      <th>技术要求</th>\n      <th>工作领域</th>\n      <th>角色定位</th>\n      <th>工作经验</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>1</td>\n      <td>慧安金科</td>\n      <td>后端开发工程师</td>\n      <td>张女士</td>\n      <td>30-40K·15薪</td>\n      <td>525.0</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>上海虹口区江湾</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>Java, Spring, MySQL, 分布式中间件 (如Dubbo, Sharding-...</td>\n      <td>海外信贷业务系统开发</td>\n      <td>系统架构师/开发者</td>\n      <td>5年以上Java开发经验，熟悉微服务架构和性能调优</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>2</td>\n      <td>中汇云链</td>\n      <td>Java</td>\n      <td>黄翔煊</td>\n      <td>5-10K</td>\n      <td>90.0</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>上海虹口区大柏树</td>\n      <td>0</td>\n      <td>1-3年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>初级软件工程师，企业级应用开发，MySQL</td>\n      <td>软件开发</td>\n      <td>系统开发者/工程师</td>\n      <td>1. 系统开发经验</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>3</td>\n      <td>熵央</td>\n      <td>Java高级开发工程师</td>\n      <td>严先生</td>\n      <td>17-28K</td>\n      <td>270.0</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>大专</td>\n      <td>java</td>\n      <td>无</td>\n      <td>无</td>\n      <td>无</td>\n      <td>无</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>4</td>\n      <td>某知名物流公司</td>\n      <td>JAVA开发</td>\n      <td>李先生</td>\n      <td>15-25K</td>\n      <td>240.0</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>上海</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>Java, JVM, MySQL, 调优, SpringCloud, Nacos, Dubb...</td>\n      <td>软件开发，微服务架构</td>\n      <td>高级Java开发者/系统架构师</td>\n      <td>5年以上相关开发经验，供应链开发经验优先，公有云部署经验优先</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>5</td>\n      <td>同威</td>\n      <td>Java高级开发工程师</td>\n      <td>傅荣斌</td>\n      <td>12-20K</td>\n      <td>192.0</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>Java、Spring、Spring Boot、Spring Cloud、J2EE、WebA...</td>\n      <td>企业级应用架构、微服务架构、分布式系统开发</td>\n      <td>高级架构师/首席架构师</td>\n      <td>大型J2EE项目架构设计经验，大数据产品研发经验优先</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3459</th>\n      <td>3481</td>\n      <td>3064</td>\n      <td>易商数智</td>\n      <td>上海Java开发工程师</td>\n      <td>孙晶</td>\n      <td>10-13K</td>\n      <td>138.0</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>- Java编程\\n- Spring, MyBatis, Spring Boot\\n- Sp...</td>\n      <td>Java后端开发，微服务架构</td>\n      <td>高级Java开发工程师或技术专家</td>\n      <td>3年以上项目开发及维护经验</td>\n    </tr>\n    <tr>\n      <th>3460</th>\n      <td>3482</td>\n      <td>2867</td>\n      <td>海魄</td>\n      <td>java开发工程师(中高级)</td>\n      <td>刘女士</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>大专</td>\n      <td>java</td>\n      <td>Java, SpringBoot, SpringCloud, Nacos, MyBatis,...</td>\n      <td>企业内部系统开发，尤其是后端与微服务架构</td>\n      <td>全栈开发工程师，负责前后端服务开发与测试</td>\n      <td>4-8年Java Web开发经验，ERP开发经验优先，有分布式和工作流开发背景</td>\n    </tr>\n    <tr>\n      <th>3461</th>\n      <td>3483</td>\n      <td>3065</td>\n      <td>慷泰桐</td>\n      <td>Java高级工程师/架构师</td>\n      <td>王莹</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>上海宝山区大华</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>大专</td>\n      <td>java</td>\n      <td>JavaEE，微服务架构，设计模式，开源框架（如SpringMVC, SpringCloud...</td>\n      <td>WEB应用开发，系统架构优化</td>\n      <td>技术架构师/高级开发工程师</td>\n      <td>5年以上，3年以上Web应用开发经验，有微服务架构实践经验优先</td>\n    </tr>\n    <tr>\n      <th>3462</th>\n      <td>3484</td>\n      <td>3066</td>\n      <td>爱达克</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>李诗雯</td>\n      <td>15-20K·14薪</td>\n      <td>245.0</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>无</td>\n      <td>无</td>\n      <td>无</td>\n      <td>无</td>\n    </tr>\n    <tr>\n      <th>3463</th>\n      <td>3485</td>\n      <td>2926</td>\n      <td>某500强上市公司</td>\n      <td>java后端开发工程师</td>\n      <td>盖女士</td>\n      <td>35-65K·15薪</td>\n      <td>750.0</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>上海</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>无</td>\n      <td>无</td>\n      <td>无</td>\n      <td>无</td>\n    </tr>\n  </tbody>\n</table>\n<p>3464 rows × 17 columns</p>\n</div>"
     },
     "execution_count": 25,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "combined_df_tongyi"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-21T09:05:04.205604900Z",
     "start_time": "2024-06-21T09:05:04.171603200Z"
    }
   },
   "id": "66ce003d2e705688",
   "execution_count": 25
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "ename": "AttributeError",
     "evalue": "'list' object has no attribute 'replace'",
     "output_type": "error",
     "traceback": [
      "\u001B[1;31m---------------------------------------------------------------------------\u001B[0m",
      "\u001B[1;31mAttributeError\u001B[0m                            Traceback (most recent call last)",
      "Cell \u001B[1;32mIn[26], line 4\u001B[0m\n\u001B[0;32m      2\u001B[0m combined_df_tongyi[\u001B[38;5;124m'\u001B[39m\u001B[38;5;124m技术要求\u001B[39m\u001B[38;5;124m'\u001B[39m]\u001B[38;5;241m=\u001B[39mcombined_df_tongyi[\u001B[38;5;124m'\u001B[39m\u001B[38;5;124m技术要求\u001B[39m\u001B[38;5;124m'\u001B[39m]\u001B[38;5;241m.\u001B[39mapply(str_split)\n\u001B[0;32m      3\u001B[0m combined_df_tongyi[\u001B[38;5;124m'\u001B[39m\u001B[38;5;124m工作领域\u001B[39m\u001B[38;5;124m'\u001B[39m]\u001B[38;5;241m=\u001B[39mcombined_df_tongyi[\u001B[38;5;124m'\u001B[39m\u001B[38;5;124m工作领域\u001B[39m\u001B[38;5;124m'\u001B[39m]\u001B[38;5;241m.\u001B[39mapply(str_split)\n\u001B[1;32m----> 4\u001B[0m combined_df_tongyi[\u001B[38;5;124m'\u001B[39m\u001B[38;5;124m角色定位\u001B[39m\u001B[38;5;124m'\u001B[39m]\u001B[38;5;241m=\u001B[39m\u001B[43mcombined_df_tongyi\u001B[49m\u001B[43m[\u001B[49m\u001B[38;5;124;43m'\u001B[39;49m\u001B[38;5;124;43m角色定位\u001B[39;49m\u001B[38;5;124;43m'\u001B[39;49m\u001B[43m]\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mapply\u001B[49m\u001B[43m(\u001B[49m\u001B[43mstr_split\u001B[49m\u001B[43m)\u001B[49m\n",
      "File \u001B[1;32mP:\\anaconda\\envs\\pytorch20\\lib\\site-packages\\pandas\\core\\series.py:4764\u001B[0m, in \u001B[0;36mSeries.apply\u001B[1;34m(self, func, convert_dtype, args, by_row, **kwargs)\u001B[0m\n\u001B[0;32m   4629\u001B[0m \u001B[38;5;28;01mdef\u001B[39;00m \u001B[38;5;21mapply\u001B[39m(\n\u001B[0;32m   4630\u001B[0m     \u001B[38;5;28mself\u001B[39m,\n\u001B[0;32m   4631\u001B[0m     func: AggFuncType,\n\u001B[1;32m   (...)\u001B[0m\n\u001B[0;32m   4636\u001B[0m     \u001B[38;5;241m*\u001B[39m\u001B[38;5;241m*\u001B[39mkwargs,\n\u001B[0;32m   4637\u001B[0m ) \u001B[38;5;241m-\u001B[39m\u001B[38;5;241m>\u001B[39m DataFrame \u001B[38;5;241m|\u001B[39m Series:\n\u001B[0;32m   4638\u001B[0m \u001B[38;5;250m    \u001B[39m\u001B[38;5;124;03m\"\"\"\u001B[39;00m\n\u001B[0;32m   4639\u001B[0m \u001B[38;5;124;03m    Invoke function on values of Series.\u001B[39;00m\n\u001B[0;32m   4640\u001B[0m \n\u001B[1;32m   (...)\u001B[0m\n\u001B[0;32m   4755\u001B[0m \u001B[38;5;124;03m    dtype: float64\u001B[39;00m\n\u001B[0;32m   4756\u001B[0m \u001B[38;5;124;03m    \"\"\"\u001B[39;00m\n\u001B[0;32m   4757\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[43mSeriesApply\u001B[49m\u001B[43m(\u001B[49m\n\u001B[0;32m   4758\u001B[0m \u001B[43m        \u001B[49m\u001B[38;5;28;43mself\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[0;32m   4759\u001B[0m \u001B[43m        \u001B[49m\u001B[43mfunc\u001B[49m\u001B[43m,\u001B[49m\n\u001B[0;32m   4760\u001B[0m \u001B[43m        \u001B[49m\u001B[43mconvert_dtype\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43mconvert_dtype\u001B[49m\u001B[43m,\u001B[49m\n\u001B[0;32m   4761\u001B[0m \u001B[43m        \u001B[49m\u001B[43mby_row\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43mby_row\u001B[49m\u001B[43m,\u001B[49m\n\u001B[0;32m   4762\u001B[0m \u001B[43m        \u001B[49m\u001B[43margs\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43margs\u001B[49m\u001B[43m,\u001B[49m\n\u001B[0;32m   4763\u001B[0m \u001B[43m        \u001B[49m\u001B[43mkwargs\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43mkwargs\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m-> 4764\u001B[0m \u001B[43m    \u001B[49m\u001B[43m)\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mapply\u001B[49m\u001B[43m(\u001B[49m\u001B[43m)\u001B[49m\n",
      "File \u001B[1;32mP:\\anaconda\\envs\\pytorch20\\lib\\site-packages\\pandas\\core\\apply.py:1209\u001B[0m, in \u001B[0;36mSeriesApply.apply\u001B[1;34m(self)\u001B[0m\n\u001B[0;32m   1206\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28mself\u001B[39m\u001B[38;5;241m.\u001B[39mapply_compat()\n\u001B[0;32m   1208\u001B[0m \u001B[38;5;66;03m# self.func is Callable\u001B[39;00m\n\u001B[1;32m-> 1209\u001B[0m \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mapply_standard\u001B[49m\u001B[43m(\u001B[49m\u001B[43m)\u001B[49m\n",
      "File \u001B[1;32mP:\\anaconda\\envs\\pytorch20\\lib\\site-packages\\pandas\\core\\apply.py:1289\u001B[0m, in \u001B[0;36mSeriesApply.apply_standard\u001B[1;34m(self)\u001B[0m\n\u001B[0;32m   1283\u001B[0m \u001B[38;5;66;03m# row-wise access\u001B[39;00m\n\u001B[0;32m   1284\u001B[0m \u001B[38;5;66;03m# apply doesn't have a `na_action` keyword and for backward compat reasons\u001B[39;00m\n\u001B[0;32m   1285\u001B[0m \u001B[38;5;66;03m# we need to give `na_action=\"ignore\"` for categorical data.\u001B[39;00m\n\u001B[0;32m   1286\u001B[0m \u001B[38;5;66;03m# TODO: remove the `na_action=\"ignore\"` when that default has been changed in\u001B[39;00m\n\u001B[0;32m   1287\u001B[0m \u001B[38;5;66;03m#  Categorical (GH51645).\u001B[39;00m\n\u001B[0;32m   1288\u001B[0m action \u001B[38;5;241m=\u001B[39m \u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mignore\u001B[39m\u001B[38;5;124m\"\u001B[39m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28misinstance\u001B[39m(obj\u001B[38;5;241m.\u001B[39mdtype, CategoricalDtype) \u001B[38;5;28;01melse\u001B[39;00m \u001B[38;5;28;01mNone\u001B[39;00m\n\u001B[1;32m-> 1289\u001B[0m mapped \u001B[38;5;241m=\u001B[39m \u001B[43mobj\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43m_map_values\u001B[49m\u001B[43m(\u001B[49m\n\u001B[0;32m   1290\u001B[0m \u001B[43m    \u001B[49m\u001B[43mmapper\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43mcurried\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mna_action\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43maction\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mconvert\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[38;5;28;43mself\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mconvert_dtype\u001B[49m\n\u001B[0;32m   1291\u001B[0m \u001B[43m\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   1293\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28mlen\u001B[39m(mapped) \u001B[38;5;129;01mand\u001B[39;00m \u001B[38;5;28misinstance\u001B[39m(mapped[\u001B[38;5;241m0\u001B[39m], ABCSeries):\n\u001B[0;32m   1294\u001B[0m     \u001B[38;5;66;03m# GH#43986 Need to do list(mapped) in order to get treated as nested\u001B[39;00m\n\u001B[0;32m   1295\u001B[0m     \u001B[38;5;66;03m#  See also GH#25959 regarding EA support\u001B[39;00m\n\u001B[0;32m   1296\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m obj\u001B[38;5;241m.\u001B[39m_constructor_expanddim(\u001B[38;5;28mlist\u001B[39m(mapped), index\u001B[38;5;241m=\u001B[39mobj\u001B[38;5;241m.\u001B[39mindex)\n",
      "File \u001B[1;32mP:\\anaconda\\envs\\pytorch20\\lib\\site-packages\\pandas\\core\\base.py:921\u001B[0m, in \u001B[0;36mIndexOpsMixin._map_values\u001B[1;34m(self, mapper, na_action, convert)\u001B[0m\n\u001B[0;32m    918\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28misinstance\u001B[39m(arr, ExtensionArray):\n\u001B[0;32m    919\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m arr\u001B[38;5;241m.\u001B[39mmap(mapper, na_action\u001B[38;5;241m=\u001B[39mna_action)\n\u001B[1;32m--> 921\u001B[0m \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[43malgorithms\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mmap_array\u001B[49m\u001B[43m(\u001B[49m\u001B[43marr\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mmapper\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mna_action\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43mna_action\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mconvert\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43mconvert\u001B[49m\u001B[43m)\u001B[49m\n",
      "File \u001B[1;32mP:\\anaconda\\envs\\pytorch20\\lib\\site-packages\\pandas\\core\\algorithms.py:1814\u001B[0m, in \u001B[0;36mmap_array\u001B[1;34m(arr, mapper, na_action, convert)\u001B[0m\n\u001B[0;32m   1812\u001B[0m values \u001B[38;5;241m=\u001B[39m arr\u001B[38;5;241m.\u001B[39mastype(\u001B[38;5;28mobject\u001B[39m, copy\u001B[38;5;241m=\u001B[39m\u001B[38;5;28;01mFalse\u001B[39;00m)\n\u001B[0;32m   1813\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m na_action \u001B[38;5;129;01mis\u001B[39;00m \u001B[38;5;28;01mNone\u001B[39;00m:\n\u001B[1;32m-> 1814\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[43mlib\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mmap_infer\u001B[49m\u001B[43m(\u001B[49m\u001B[43mvalues\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mmapper\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mconvert\u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43mconvert\u001B[49m\u001B[43m)\u001B[49m\n\u001B[0;32m   1815\u001B[0m \u001B[38;5;28;01melse\u001B[39;00m:\n\u001B[0;32m   1816\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m lib\u001B[38;5;241m.\u001B[39mmap_infer_mask(\n\u001B[0;32m   1817\u001B[0m         values, mapper, mask\u001B[38;5;241m=\u001B[39misna(values)\u001B[38;5;241m.\u001B[39mview(np\u001B[38;5;241m.\u001B[39muint8), convert\u001B[38;5;241m=\u001B[39mconvert\n\u001B[0;32m   1818\u001B[0m     )\n",
      "File \u001B[1;32mlib.pyx:2926\u001B[0m, in \u001B[0;36mpandas._libs.lib.map_infer\u001B[1;34m()\u001B[0m\n",
      "Cell \u001B[1;32mIn[24], line 2\u001B[0m, in \u001B[0;36mstr_split\u001B[1;34m(job_str)\u001B[0m\n\u001B[0;32m      1\u001B[0m \u001B[38;5;28;01mdef\u001B[39;00m \u001B[38;5;21mstr_split\u001B[39m(job_str):\n\u001B[1;32m----> 2\u001B[0m     job_str \u001B[38;5;241m=\u001B[39m \u001B[43mjob_str\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mreplace\u001B[49m(\u001B[38;5;124m\"\u001B[39m\u001B[38;5;124m \u001B[39m\u001B[38;5;124m\"\u001B[39m, \u001B[38;5;124m\"\u001B[39m\u001B[38;5;124m\"\u001B[39m)\n\u001B[0;32m      3\u001B[0m     \u001B[38;5;66;03m# 定义一个正则表达式，其中'|'表示或，用于匹配多个分隔符\u001B[39;00m\n\u001B[0;32m      4\u001B[0m     split_pattern \u001B[38;5;241m=\u001B[39m re\u001B[38;5;241m.\u001B[39mcompile(\u001B[38;5;124mr\u001B[39m\u001B[38;5;124m'\u001B[39m\u001B[38;5;124m,|/|，|、|\u001B[39m\u001B[38;5;124m\\\u001B[39m\u001B[38;5;124mn|-\u001B[39m\u001B[38;5;124m'\u001B[39m)  \u001B[38;5;66;03m# 这里也包括了中文的逗号和顿号，根据实际需要可调整\u001B[39;00m\n",
      "\u001B[1;31mAttributeError\u001B[0m: 'list' object has no attribute 'replace'"
     ]
    }
   ],
   "source": [
    "combined_df_tongyi['角色定位']=combined_df_tongyi['角色定位'].apply(str_split)\n",
    "combined_df_tongyi['技术要求']=combined_df_tongyi['技术要求'].apply(str_split)\n",
    "combined_df_tongyi['工作领域']=combined_df_tongyi['工作领域'].apply(str_split)\n",
    "\n"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-21T09:05:04.881299900Z",
     "start_time": "2024-06-21T09:05:04.790300500Z"
    }
   },
   "id": "183e6536665bea0d",
   "execution_count": 26
  },
  {
   "cell_type": "code",
   "outputs": [
    {
     "data": {
      "text/plain": "      job_id  company_id company_name                  job_title hr_name  \\\n0          1           1         慧安金科                    后端开发工程师     张女士   \n1          2           2         中汇云链                       Java     黄翔煊   \n2          3           3           熵央                Java高级开发工程师     严先生   \n3          4           4      某知名物流公司                     JAVA开发     李先生   \n4          5           5           同威                Java高级开发工程师     傅荣斌   \n...      ...         ...          ...                        ...     ...   \n3459    3481        3064         易商数智                上海Java开发工程师      孙晶   \n3460    3482        2867           海魄             java开发工程师(中高级)     刘女士   \n3461    3483        3065          慷泰桐              Java高级工程师/架构师      王莹   \n3462    3484        3066          爱达克  CodeBeamer二次开发工程师(J10627)     李诗雯   \n3463    3485        2926    某500强上市公司                java后端开发工程师     盖女士   \n\n      job_salary  annual_salary  \\\n0     30-40K·15薪          525.0   \n1          5-10K           90.0   \n2         17-28K          270.0   \n3         15-25K          240.0   \n4         12-20K          192.0   \n...          ...            ...   \n3459      10-13K          138.0   \n3460      15-20K          210.0   \n3461      15-20K          210.0   \n3462  15-20K·14薪          245.0   \n3463  35-65K·15薪          750.0   \n\n                                        job_description company_brief_address  \\\n0     工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...               上海虹口区江湾   \n1     软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...              上海虹口区大柏树   \n2     【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...             上海虹口区四川北路   \n3     岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...                    上海   \n4     1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...             上海虹口区四川北路   \n...                                                 ...                   ...   \n3459  1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...               上海黄浦区外滩   \n3460  岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...              上海黄浦区城隍庙   \n3461  岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...               上海宝山区大华   \n3462  工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...               上海黄浦区外滩   \n3463  大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...                    上海   \n\n      deleted     资历  学历  tags  \\\n0           0  5-10年  本科  java   \n1           0   1-3年  本科  java   \n2           0   3-5年  大专  java   \n3           0   3-5年  本科  java   \n4           0  5-10年  本科  java   \n...       ...    ...  ..   ...   \n3459        0  5-10年  本科  java   \n3460        0  5-10年  大专  java   \n3461        0  5-10年  大专  java   \n3462        0   3-5年  本科  java   \n3463        0  5-10年  本科  java   \n\n                                                   技术要求  \\\n0     [Java, Spring, MySQL, 分布式中间件(如Dubbo, Sharding,...   \n1                             [初级软件工程师, 企业级应用开发, MySQL]   \n2                                                   [无]   \n3     [Java, JVM, MySQL, 调优, SpringCloud, Nacos, Dub...   \n4     [Java, Spring, SpringBoot, SpringCloud, J2EE, ...   \n...                                                 ...   \n3459  [Java编程, Spring, MyBatis, SpringBoot, SpringCl...   \n3460  [Java, SpringBoot, SpringCloud, Nacos, MyBatis...   \n3461  [JavaEE, 微服务架构, 设计模式, 开源框架（如SpringMVC, SpringC...   \n3462                                                [无]   \n3463                                                [无]   \n\n                           工作领域                     角色定位  \\\n0                  [海外信贷业务系统开发]             [系统架构师, 开发者]   \n1                        [软件开发]             [系统开发者, 工程师]   \n2                           [无]                      [无]   \n3                 [软件开发, 微服务架构]       [高级Java开发者, 系统架构师]   \n4     [企业级应用架构, 微服务架构, 分布式系统开发]           [高级架构师, 首席架构师]   \n...                         ...                      ...   \n3459          [Java后端开发, 微服务架构]       [高级Java开发工程师或技术专家]   \n3460    [企业内部系统开发, 尤其是后端与微服务架构]  [全栈开发工程师, 负责前后端服务开发与测试]   \n3461          [WEB应用开发, 系统架构优化]         [技术架构师, 高级开发工程师]   \n3462                        [无]                      [无]   \n3463                        [无]                      [无]   \n\n                                         工作经验  \n0                   5年以上Java开发经验，熟悉微服务架构和性能调优  \n1                                   1. 系统开发经验  \n2                                           无  \n3              5年以上相关开发经验，供应链开发经验优先，公有云部署经验优先  \n4                  大型J2EE项目架构设计经验，大数据产品研发经验优先  \n...                                       ...  \n3459                            3年以上项目开发及维护经验  \n3460  4-8年Java Web开发经验，ERP开发经验优先，有分布式和工作流开发背景  \n3461          5年以上，3年以上Web应用开发经验，有微服务架构实践经验优先  \n3462                                        无  \n3463                                        无  \n\n[3464 rows x 17 columns]",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>job_id</th>\n      <th>company_id</th>\n      <th>company_name</th>\n      <th>job_title</th>\n      <th>hr_name</th>\n      <th>job_salary</th>\n      <th>annual_salary</th>\n      <th>job_description</th>\n      <th>company_brief_address</th>\n      <th>deleted</th>\n      <th>资历</th>\n      <th>学历</th>\n      <th>tags</th>\n      <th>技术要求</th>\n      <th>工作领域</th>\n      <th>角色定位</th>\n      <th>工作经验</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>1</td>\n      <td>1</td>\n      <td>慧安金科</td>\n      <td>后端开发工程师</td>\n      <td>张女士</td>\n      <td>30-40K·15薪</td>\n      <td>525.0</td>\n      <td>工作职责：\\n1、负责海外信贷业务相关系统设计、研发、迭代；\\n2、协助业务需求分析，将业务...</td>\n      <td>上海虹口区江湾</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>[Java, Spring, MySQL, 分布式中间件(如Dubbo, Sharding,...</td>\n      <td>[海外信贷业务系统开发]</td>\n      <td>[系统架构师, 开发者]</td>\n      <td>5年以上Java开发经验，熟悉微服务架构和性能调优</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>2</td>\n      <td>2</td>\n      <td>中汇云链</td>\n      <td>Java</td>\n      <td>黄翔煊</td>\n      <td>5-10K</td>\n      <td>90.0</td>\n      <td>软件开发工程师\\n\\n岗位职责:\\n1、 负责系统开发、部署和集成，解决开发过程中的技术问题...</td>\n      <td>上海虹口区大柏树</td>\n      <td>0</td>\n      <td>1-3年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>[初级软件工程师, 企业级应用开发, MySQL]</td>\n      <td>[软件开发]</td>\n      <td>[系统开发者, 工程师]</td>\n      <td>1. 系统开发经验</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>3</td>\n      <td>3</td>\n      <td>熵央</td>\n      <td>Java高级开发工程师</td>\n      <td>严先生</td>\n      <td>17-28K</td>\n      <td>270.0</td>\n      <td>【岗位职责】\\n1、对接产品需求，独立进行产品的概要设计、详细设计和代码实现工作\\n2、解决...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>大专</td>\n      <td>java</td>\n      <td>[无]</td>\n      <td>[无]</td>\n      <td>[无]</td>\n      <td>无</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>4</td>\n      <td>4</td>\n      <td>某知名物流公司</td>\n      <td>JAVA开发</td>\n      <td>李先生</td>\n      <td>15-25K</td>\n      <td>240.0</td>\n      <td>岗位要求:\\n计算机及相关专业，大学本科以上学历，5 年以上开发经验\\n1.精通java 语...</td>\n      <td>上海</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>[Java, JVM, MySQL, 调优, SpringCloud, Nacos, Dub...</td>\n      <td>[软件开发, 微服务架构]</td>\n      <td>[高级Java开发者, 系统架构师]</td>\n      <td>5年以上相关开发经验，供应链开发经验优先，公有云部署经验优先</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>5</td>\n      <td>5</td>\n      <td>同威</td>\n      <td>Java高级开发工程师</td>\n      <td>傅荣斌</td>\n      <td>12-20K</td>\n      <td>192.0</td>\n      <td>1、理解架构师的职责和架构设计的目标、原则及取舍；\\n2、精通架构模式，IOC、AOP、SO...</td>\n      <td>上海虹口区四川北路</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>[Java, Spring, SpringBoot, SpringCloud, J2EE, ...</td>\n      <td>[企业级应用架构, 微服务架构, 分布式系统开发]</td>\n      <td>[高级架构师, 首席架构师]</td>\n      <td>大型J2EE项目架构设计经验，大数据产品研发经验优先</td>\n    </tr>\n    <tr>\n      <th>...</th>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n      <td>...</td>\n    </tr>\n    <tr>\n      <th>3459</th>\n      <td>3481</td>\n      <td>3064</td>\n      <td>易商数智</td>\n      <td>上海Java开发工程师</td>\n      <td>孙晶</td>\n      <td>10-13K</td>\n      <td>138.0</td>\n      <td>1. 熟练掌握java编程语言\\n2. 熟练使用常用的java框架，如Spring,Myba...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>[Java编程, Spring, MyBatis, SpringBoot, SpringCl...</td>\n      <td>[Java后端开发, 微服务架构]</td>\n      <td>[高级Java开发工程师或技术专家]</td>\n      <td>3年以上项目开发及维护经验</td>\n    </tr>\n    <tr>\n      <th>3460</th>\n      <td>3482</td>\n      <td>2867</td>\n      <td>海魄</td>\n      <td>java开发工程师(中高级)</td>\n      <td>刘女士</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\n1、企业内部前端及后端服务的开发；\\n 2、根据系统的功能需求和技术规格进行编...</td>\n      <td>上海黄浦区城隍庙</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>大专</td>\n      <td>java</td>\n      <td>[Java, SpringBoot, SpringCloud, Nacos, MyBatis...</td>\n      <td>[企业内部系统开发, 尤其是后端与微服务架构]</td>\n      <td>[全栈开发工程师, 负责前后端服务开发与测试]</td>\n      <td>4-8年Java Web开发经验，ERP开发经验优先，有分布式和工作流开发背景</td>\n    </tr>\n    <tr>\n      <th>3461</th>\n      <td>3483</td>\n      <td>3065</td>\n      <td>慷泰桐</td>\n      <td>Java高级工程师/架构师</td>\n      <td>王莹</td>\n      <td>15-20K</td>\n      <td>210.0</td>\n      <td>岗位职责：\\r\\n\\r\\n1、理解业务，识别需求，负责/参与技术架构设计、重构、优化，根据业...</td>\n      <td>上海宝山区大华</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>大专</td>\n      <td>java</td>\n      <td>[JavaEE, 微服务架构, 设计模式, 开源框架（如SpringMVC, SpringC...</td>\n      <td>[WEB应用开发, 系统架构优化]</td>\n      <td>[技术架构师, 高级开发工程师]</td>\n      <td>5年以上，3年以上Web应用开发经验，有微服务架构实践经验优先</td>\n    </tr>\n    <tr>\n      <th>3462</th>\n      <td>3484</td>\n      <td>3066</td>\n      <td>爱达克</td>\n      <td>CodeBeamer二次开发工程师(J10627)</td>\n      <td>李诗雯</td>\n      <td>15-20K·14薪</td>\n      <td>245.0</td>\n      <td>工作职责:\\n该职位需要提供技术解决方案，作为ALM相关活动的整体PMT解决方案的一部分。\\...</td>\n      <td>上海黄浦区外滩</td>\n      <td>0</td>\n      <td>3-5年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>[无]</td>\n      <td>[无]</td>\n      <td>[无]</td>\n      <td>无</td>\n    </tr>\n    <tr>\n      <th>3463</th>\n      <td>3485</td>\n      <td>2926</td>\n      <td>某500强上市公司</td>\n      <td>java后端开发工程师</td>\n      <td>盖女士</td>\n      <td>35-65K·15薪</td>\n      <td>750.0</td>\n      <td>大厂，高并发等经验优先考虑\\n1. 深度参与大模型平台的基础架构和产品化研发,并部署到多个数...</td>\n      <td>上海</td>\n      <td>0</td>\n      <td>5-10年</td>\n      <td>本科</td>\n      <td>java</td>\n      <td>[无]</td>\n      <td>[无]</td>\n      <td>[无]</td>\n      <td>无</td>\n    </tr>\n  </tbody>\n</table>\n<p>3464 rows × 17 columns</p>\n</div>"
     },
     "execution_count": 27,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "combined_df_tongyi"
   ],
   "metadata": {
    "collapsed": false,
    "ExecuteTime": {
     "end_time": "2024-06-21T09:05:07.390169Z",
     "start_time": "2024-06-21T09:05:07.364168Z"
    }
   },
   "id": "73769b880356b6ef",
   "execution_count": 27
  },
  {
   "cell_type": "code",
   "outputs": [],
   "source": [
    "cols_mapping = {\n",
    "    'job_id': 'jobId',\n",
    "    'company_id': 'companyId',\n",
    "    'company_name': 'companyName',\n",
    "    'job_title': 'name',\n",
    "    'hr_name': 'hr',\n",
    "    'job_salary': 'salary',\n",
    "    'annual_salary':'salaryYear',\n",
    "    'tags':'tags',\n",
    "    'job_description': 'description',\n",
    "    '学历': 'degree',\n",
    "    '资历':'experience',\n",
    "    'company_brief_address': 'location',\n",
    "    'deleted': 'deleted',\n",
    "    '角色定位':'workRole',\n",
    "    '技术要求':'workRequirements',\n",
    "    '工作领域':'workField',\n",
    "    '工作经验':'workExperience'\n",
    "    \n",
    "}"
   ],
   "metadata": {
    "collapsed": false
   },
   "id": "6ae84733c4c590b2"
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 2
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython2",
   "version": "2.7.6"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
